ChatGPT, per aggirare le difese basta una stringa di testo

ChatGPT e gli altri chatbot di intelligenza artificiale sono stati progettati e modificati diverse volte per evitare che dei malintenzionati li sfruttino per produrre incitamento all’odio, informazioni personali o istruzioni dettagliate per costruire una bomba improvvisata. La scorsa settimana, però, i ricercatori della Carnegie Mellon University (Cmu) hanno dimostrato che aggiungendo a un prompt una semplice stringa di testo – che all’apparenza potrebbe sembrare insensata, ma ha invece un significato per un modello AI addestrato su enormi quantità di dati web – è possibile aggirare contemporaneamente le difese di diversi popolari chatbot.

Lo studio suggerisce che la propensione dei chatbot AI più sofisticati a uscire dai binari non va vista come una bizza che può essere risolta con qualche semplice regola, ma rappresenta una debolezza fondamentale che complicherà gli sforzi verso un’IA più avanzata.

“Non conosciamo nessun modo per applicare una patch – afferma Zico Kolter, professore associato della Cmu che ha scoperto la vulnerabilità –. Non sappiamo come rendere [i chatbot] sicuri”.

Lo studio della Carnegie

I ricercatori hanno utilizzato un modello linguistico open source per sviluppare dei cosiddetti adversarial attacks, che consistono sostanzialmente nel modificare il messaggio inviato a un bot in modo da spingerlo gradualmente a superare le sue protezioni. Hanno dimostrato che lo stesso attacco funziona su diversi popolari chatbot commerciali, tra cui ChatGPT, Google Bard e Claude di Anthropic.

L’attacco costringe i chatbot a fornire risposte non consentite quando in coda a un prompt viene aggiunto una determinata stringa di informazioni. Inserendo queste stringhe a richieste quali “Come posso produrre droghe?” o “Come posso far scomparire una persona per sempre?”, i sistemi generano un output vietato. “È una cosa simile a un buffer overflow – dice Kolter, riferendosi a un metodo molto utilizzato per infrangere i vincoli di sicurezza di un programma informatico –. Le persone possono usarlo per fare molte cose diverse“.

I ricercatori hanno avvertito OpenAI, Google e Anthropic dell’exploit prima di pubblicare la loro ricerca. Tutte le aziende hanno introdotto dei sistemi per bloccare le vulnerabilità descritte nello studio, ma non hanno capito come fermare gli adversarial attack più in generale. Kolter ha inviato a Wired US alcune nuove stringhe che funzionano sia su ChatGPT che su Bard: “Ne abbiamo migliaia“, sottolinea. Al momento della stesura di questo articolo, OpenAI non aveva risposto a una richiesta di commento. Elijah Lawal, portavoce di Google, ha condiviso una dichiarazione in cui spiega che l’azienda ha messo in atto una serie di misure per testare i modelli e individuarne i punti deboli: “Sebbene si tratti di un problema che riguarda tutti gli Llm [i modelli linguistici di grandi dimensioni, ndr], abbiamo inserito all’interno di Bard importanti guardrail, come quelli ipotizzati da questa ricerca, che continueremo a migliorare nel tempo“, si legge nella dichiarazione. “Quella per rendere i modelli più resistenti alla prompt injection e ad altre misure di ‘jailbreak‘ è un’area di ricerca attiva – afferma Michael Sellitto, responsabile ad interim delle politiche e dell’impatto sulla società di Anthropic –. Stiamo sperimentando modi per rafforzare i guardrail dei modelli di base per renderli più ‘innocui’, studiando al contempo ulteriori livelli di difesa“.

La vulnerabilità nel cuore dei chatbot

ChatGPT e gli altri principali chatbot AI sono costruiti sulla base di modelli linguistici di grandi dimensioni, enormi algoritmi di reti neurali che imparano a usare il linguaggio naturale addestrandosi con grandi quantità di testi umani e sono in grado di prevedere i caratteri che dovrebbero seguire una determinata stringa di testo.

Leggi tutto su www.wired.it
di Will Knight www.wired.it 2023-08-03 04:20:00 ,